Caderno de aulas
  • APRESENTAÇÃO
  • Aula 1
  • Aula 2
  • Aula 3
  • Aula 4
  • Aula 5
  • Aula 6
  • Aula de Mapa

On this page

  • Configurando um Projeto no RStudio e Criando Documentos Quarto
  • Importação e Exploração de Dados
  • Manipulação de dados
  • Instalação e Uso de Pacotes
  • Visualização de Dados com tidyverse
  • Criação de Gráfico com ggplot2

Nesta aula inicial, vamos explorar os conceitos básicos dos programas R e RStudio. Você aprenderá a criar e gerenciar projetos, scripts e arquivos, além de entender como salvar seu trabalho corretamente. Também veremos o passo a passo para instalar e carregar pacotes essenciais, bem como criar estruturas de dados como vetores e data frames. Por fim, faremos algumas operações básicas no RStudio para você começar a se familiarizar com a ferramenta.

Configurando um Projeto no RStudio e Criando Documentos Quarto

  1. Iniciando um Projeto no RStudio

    Para organizar os arquivos da disciplina, o primeiro passo é criar um novo projeto no RStudio, isso criará uma pasta dedicada ao seu trabalho, mantendo todos os arquivos organizados em um único local. Para isso:

    1. No menu superior do RStudio, clique em File >New Project… >New Directory.

    2. Selecione “New Project”, defina um nome para o projeto e escolha a pasta onde ele será salvo.

    3. Finalize clicando em “Create Project”.

    Criando Scripts e Documentos

    Após criar o projeto, é hora de começar a construir os arquivos onde serão escritos os códigos, comentários e interpretações.

    1. Scripts R

      Para criar um novo script, onde você pode escrever e testar seus códigos em R:

      Vá em File >New File >R Script.

      Esse tipo de arquivo é útil para testar funções, fazer experimentos com códigos e salvar pequenos trechos de análise.

    2. Documentos Quarto (.qmd)

      Durante a disciplina, utilizaremos principalmente documentos no formato Quarto (.qmd). Esses arquivos permitem integrar texto, código e resultados (como gráficos e tabelas) no mesmo lugar. Para criar um documento nesse formato:

      1. Acesse File >New File >Quarto Document….
      2. Na janela seguinte, defina um título e o nome do autor.
    3. Clique em Create.

Importação e Exploração de Dados

Importamos e exploramos o conjunto de dados Orange, que já está disponível por padrão no R. Esse banco contém informações sobre o crescimento de árvores cítricas, como a idade e a circunferência do tronco.

Aqui foi criado um objeto chamado DADOS que recebe o banco de dados Orange. O simbolo “<-” é o operador de atribuição do R. Atribuindo o valor da direita ao objeto da esquerda. O operador $ foi utilizado para acessar colunas específicas, como circumference. Também utilizamos a função plot() para gerar um gráfico simples dessa variável.

dados <- Orange
Orange
   Tree  age circumference
1     1  118            30
2     1  484            58
3     1  664            87
4     1 1004           115
5     1 1231           120
6     1 1372           142
7     1 1582           145
8     2  118            33
9     2  484            69
10    2  664           111
11    2 1004           156
12    2 1231           172
13    2 1372           203
14    2 1582           203
15    3  118            30
16    3  484            51
17    3  664            75
18    3 1004           108
19    3 1231           115
20    3 1372           139
21    3 1582           140
22    4  118            32
23    4  484            62
24    4  664           112
25    4 1004           167
26    4 1231           179
27    4 1372           209
28    4 1582           214
29    5  118            30
30    5  484            49
31    5  664            81
32    5 1004           125
33    5 1231           142
34    5 1372           174
35    5 1582           177
plot(dados$circumference)

Manipulação de dados

Nesta etapa, trabalhamos com a criação de novos objetos a partir do conjunto de dados original dados. Essas ações são úteis para manipular partes específicas da base ou realizar transformações de maneira organizada.

dados2 <- dados

Além disso, foi extraida apenas a coluna circumference e armazenamos seus valores em um novo vetor chamado circ:

circ <- dados$circumference
circ
 [1]  30  58  87 115 120 142 145  33  69 111 156 172 203 203  30  51  75 108 115
[20] 139 140  32  62 112 167 179 209 214  30  49  81 125 142 174 177

Com base nesse vetor, criamos um novo chamado circ2, no qual cada valor foi acrescido de 10 cm. Essa modificação simula um cenário hipotético de crescimento adicional no diâmetro dos troncos.

circ2 <- circ+10
circ2
 [1]  40  68  97 125 130 152 155  43  79 121 166 182 213 213  40  61  85 118 125
[20] 149 150  42  72 122 177 189 219 224  40  59  91 135 152 184 187

Tambem foi realizada a transformação logarítmica da variavél circunferência, utilizando a função log() criando uma nova coluna no próprio data frame.

dados
   Tree  age circumference
1     1  118            30
2     1  484            58
3     1  664            87
4     1 1004           115
5     1 1231           120
6     1 1372           142
7     1 1582           145
8     2  118            33
9     2  484            69
10    2  664           111
11    2 1004           156
12    2 1231           172
13    2 1372           203
14    2 1582           203
15    3  118            30
16    3  484            51
17    3  664            75
18    3 1004           108
19    3 1231           115
20    3 1372           139
21    3 1582           140
22    4  118            32
23    4  484            62
24    4  664           112
25    4 1004           167
26    4 1231           179
27    4 1372           209
28    4 1582           214
29    5  118            30
30    5  484            49
31    5  664            81
32    5 1004           125
33    5 1231           142
34    5 1372           174
35    5 1582           177
dados$logcirc <- log(dados$circumferenc)
dados
   Tree  age circumference  logcirc
1     1  118            30 3.401197
2     1  484            58 4.060443
3     1  664            87 4.465908
4     1 1004           115 4.744932
5     1 1231           120 4.787492
6     1 1372           142 4.955827
7     1 1582           145 4.976734
8     2  118            33 3.496508
9     2  484            69 4.234107
10    2  664           111 4.709530
11    2 1004           156 5.049856
12    2 1231           172 5.147494
13    2 1372           203 5.313206
14    2 1582           203 5.313206
15    3  118            30 3.401197
16    3  484            51 3.931826
17    3  664            75 4.317488
18    3 1004           108 4.682131
19    3 1231           115 4.744932
20    3 1372           139 4.934474
21    3 1582           140 4.941642
22    4  118            32 3.465736
23    4  484            62 4.127134
24    4  664           112 4.718499
25    4 1004           167 5.117994
26    4 1231           179 5.187386
27    4 1372           209 5.342334
28    4 1582           214 5.365976
29    5  118            30 3.401197
30    5  484            49 3.891820
31    5  664            81 4.394449
32    5 1004           125 4.828314
33    5 1231           142 4.955827
34    5 1372           174 5.159055
35    5 1582           177 5.176150
dados$circumference
 [1]  30  58  87 115 120 142 145  33  69 111 156 172 203 203  30  51  75 108 115
[20] 139 140  32  62 112 167 179 209 214  30  49  81 125 142 174 177

A função attach() permite acessar diretamente as colunas de interesse sem precissar usar o $. Assim você pode chamar apenas a coluna especifica sem precisar digitar “dados$…”. E detach() desfaz o attach, sendo necessario voltar a usar o $ para acessar as colunas de interesse.

attach(dados) 
circumference
 [1]  30  58  87 115 120 142 145  33  69 111 156 172 203 203  30  51  75 108 115
[20] 139 140  32  62 112 167 179 209 214  30  49  81 125 142 174 177
detach(dados)

Instalação e Uso de Pacotes

Para utilizar funções que não estão disponíveis por padrão no R, é necessário instalar e carregar pacotes adicionais.

Antes de usar um pacote, é necessário instalá-lo no sistema, isso pode ser feito de forma manual:

Packages> Install> Na linha Packages, digite o nome do pacote de interesse, por exemplo, Agricolae> Install.

E támbem pode ser instalado usando a função:

install.packages("agricolae", repos = "https://cloud.r-project.org")
pacote 'agricolae' desempacotado com sucesso e somas MD5 verificadas

Os pacotes binários baixados estão em
    C:\Users\USUÁRIO\AppData\Local\Temp\RtmpMtR0qu\downloaded_packages

Após a instalação, o pacote pode ser carregado em qualquer sessão do R usando a função library() .

library(agricolae)

O pacote carregado na aula intitulado agricolae é utilizado principalmente para análises experimentais aplicadas à agricultura. Entre suas funcionalidades, estão testes estatísticos, cálculos de variáveis agronômicas e acesso a conjuntos de dados internos, exemplo corn.

Após carregar o pacote, são criados dois vetores: dates, contendo os dias de avaliação, e severity, com os valores de severidade da doença em cada data. A função audpc() (Área Abaixo da Curva de Progresso da Doença) é utilizada para calcular uma medida acumulada da severidade ao longo do tempo. Esse valor resume a evolução da doença em um único número:

dates <- c(14,21,28) #cria um vetor "c()"
dates
[1] 14 21 28
severity <- c(40,80,90)
severity
[1] 40 80 90
audpc(severity, dates)
evaluation 
      1015 
data(corn)
str(corn)
'data.frame':   34 obs. of  3 variables:
 $ method     : int  1 1 1 1 1 1 1 1 1 2 ...
 $ observation: int  83 91 94 89 89 96 91 92 90 91 ...
 $ rx         : num  11 23 28.5 17 17 31.5 23 26 19.5 23 ...

A função str() (estrutura) mostra as variáveis presentes no conjunto, seus tipos e alguns exemplos de dados.

Visualização de Dados com tidyverse

O tidyverse é uma coleção de pacotes integrados (como ggplot2, dplyr, readr, entre outros) voltados para a manipulação, análise e visualização de dados.

Após carregar o pacote, são definidos dois vetores com valores simulados:

library(tidyverse)
dates <- c(7,14,21,28,35,42)
severity <- c(0.1,5,10,35,50,60)

Esses vetores representam a severidade de uma doença observada ao longo de dias após o plantio. Para trabalhar com esses dados de maneira estruturada, cria-se um data.frame nomeado como data_curva, que organiza os vetores em forma de tabela:

data_curva <- data.frame(dates, severity)
data_curva
  dates severity
1     7      0.1
2    14      5.0
3    21     10.0
4    28     35.0
5    35     50.0
6    42     60.0
str(data_curva)
'data.frame':   6 obs. of  2 variables:
 $ dates   : num  7 14 21 28 35 42
 $ severity: num  0.1 5 10 35 50 60

Criação de Gráfico com ggplot2

O pacote ggplot2, incluído no tidyverse, permite criar gráficos personalizados e informativos. O seguinte código produz um gráfico combinando barras, linha e pontos, representando a evolução da severidade ao longo do tempo.

Primeiro, uma nova variável severity2 é adicionada com valores ajustados de severidade:

data_curva |> 
  mutate(severity2 = c(1, 10, 35, 58, 70, 79)) |> 
  ggplot(aes(x = dates, y = severity2))+
  geom_col()+
  geom_line(linewidth = 2, color = "#FA8775") +
  geom_point(size = 4, color = "#FA8775") +
  
  theme_classic(base_size = 14)+
  labs(x = "dia após plantio",
       y = "Severidade (%)")+
  scale_y_continuous (limits = c(0, 100), n.breaks = 10)+
  scale_x_continuous(n.breaks = 8)

Para esse gráfico foi utilizado as seguintes funções:

  • mutate(): cria a nova coluna severity2.

  • geom_col(): plota colunas verticais para representar os dados.

  • geom_line() e geom_point(): adicionam uma linha e pontos sobre as colunas, enfatizando a tendência dos dados.

  • theme_classic(): define um estilo visual limpo.

  • labs(): define os rótulos dos eixos.

  • scale_*_continuous(): ajusta os eixos para facilitar a leitura.